In this paper, we introduce MINTIME, a video deepfake detection approach that captures spatial and temporal anomalies and handles instances of multiple people in the same video and variations in face sizes. Previous approaches disregard such information either by using simple a-posteriori aggregation schemes, i.e., average or max operation, or using only one identity for the inference, i.e., the largest one. On the contrary, the proposed approach builds on a Spatio-Temporal TimeSformer combined with a Convolutional Neural Network backbone to capture spatio-temporal anomalies from the face sequences of multiple identities depicted in a video. This is achieved through an Identity-aware Attention mechanism that attends to each face sequence independently based on a masking operation and facilitates video-level aggregation. In addition, two novel embeddings are employed: (i) the Temporal Coherent Positional Embedding that encodes each face sequence's temporal information and (ii) the Size Embedding that encodes the size of the faces as a ratio to the video frame size. These extensions allow our system to adapt particularly well in the wild by learning how to aggregate information of multiple identities, which is usually disregarded by other methods in the literature. It achieves state-of-the-art results on the ForgeryNet dataset with an improvement of up to 14% AUC in videos containing multiple people and demonstrates ample generalization capabilities in cross-forgery and cross-dataset settings. The code is publicly available at https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deepfake-Detection.
translated by 谷歌翻译
由于监视摄像头网络的无处不在,从图像中计算的自动人士最近引起了现代智能城市的城市监测的注意。当前的计算机视觉技术依赖于基于深度学习的算法,这些算法估算了静止图像中的行人密度。只有一堆作品利用视频序列中的时间一致性。在这项工作中,我们提出了一个时空的细心神经网络,以估计监视视频中的行人数量。通过利用连续帧之间的时间相关性,我们在广泛使用的FDST基准上将最新的计数误差降低了5%,定位误差降低了7.5%。
translated by 谷歌翻译
图像文本匹配是在涉及对视觉和语言的共同理解的任务中发挥领导作用。在文献中,此任务通常被用作培训能够共同处理图像和文本的架构的预训练目标。但是,它具有直接的下游应用程序:跨模式检索,其中包括查找与给定查询文本或反之亦然相关的图像。解决此任务对于跨模式搜索引擎至关重要。许多最近的方法提出了针对图像文本匹配问题的有效解决方案,主要是使用最近的大型视觉语言(VL)变压器网络。但是,这些模型通常在计算上很昂贵,尤其是在推理时间。这样可以防止他们在大规模的跨模式检索场景中采用,几乎应该立即向用户提供结果。在本文中,我们建议通过提出对齐和提炼网络(Aladin)来填补有效性和效率之间的空白。阿拉丁首先通过在细粒度的图像和文本上对齐来产生高效的分数。然后,它通过提炼从细粒对齐方式获得的相关性分数来提炼共享的嵌入空间 - 可以进行有效的KNN搜索。我们在MS-Coco上取得了显着的结果,表明我们的方法可以与最先进的VL变形金刚竞争,同时快了近90倍。复制我们结果的代码可在https://github.com/mesnico/aladin上获得。
translated by 谷歌翻译
深层生成技术正在快速发展,使创建现实的操纵图像和视频并危及现代社会的宁静成为可能。新技术的持续出现带来了一个要面对的另一个问题,即DeepFake检测模型及时更新自己的能力,以便能够使用最新方法识别进行的操作。这是一个非常复杂的问题,因为训练一个模型需要大量数据,如果深层生成方法过于最近,这很难获得。此外,不断地重新训练网络是不可行的。在本文中,我们问自己,在各种深度学习技术中,是否有一个能够概括深层的概念,以至于它不会与培训中使用的一种或多种或多种特定的深层捕获方法息息相关。放。我们将视觉变压器与基于伪造网络数据集的跨性别环境中的有效NETV2进行了比较。从我们的实验中,有效的NETV2具有更大的专业趋势,通常会在训练方法上获得更好的结果,而视觉变压器具有卓越的概括能力,即使在使用新方法生成的图像上也使它们更有能力。
translated by 谷歌翻译
随着网络和在线百科全书的可访问性的增加,要管理的数据量正在不断增加。例如,在Wikipedia中,有数百万页用多种语言编写。这些页面包含通常缺乏文本上下文的图像,在概念上保持浮动,因此很难找到和管理。在这项工作中,我们介绍了我们设计的系统,用于参加Kaggle上的Wikipedia图像捕捉匹配挑战,其目的是使用与图像(URL和视觉数据)相关的数据来在大量可用图像中找到正确的标题。能够执行此任务的系统将改善大型在线百科全书上多媒体内容的可访问性和完整性。具体而言,我们提出了一个由最近的变压器模型提供支持的两个模型的级联,能够有效地推断出查询图像数据和字幕之间的相关得分。我们通过广泛的实验来验证,提出的两模型方法是处理大量图像和标题的有效方法,同时保持了推理时的整体计算复杂性。我们的方法取得了显着的结果,在Kaggle Challenge的私人排行榜上获得了0.53的归一化折扣累积增益(NDCG)值。
translated by 谷歌翻译
虽然卷积神经网络(CNNS)在许多愿景任务中显示出显着的结果,但它们仍然是通过简单但具有挑战性的视觉推理问题所紧张的。在计算机视觉中最近的变压器网络成功的启发,在本文中,我们介绍了经常性视觉变压器(RVIT)模型。由于经常性连接和空间注意在推理任务中的影响,该网络实现了来自SVRT数据集的同样不同视觉推理问题的竞争结果。空间和深度尺寸中的重量共享正规化模型,允许它使用较少的自由参数学习,仅使用28K培训样本。全面的消融研究证实了混合CNN +变压器架构的重要性和反馈连接的作用,其迭代地细化内部表示直到获得稳定的预测。最后,本研究可以更深入地了解对求解视觉抽象推理任务的注意力和经常性联系的作用。
translated by 谷歌翻译
太空探索一直是人类灵感的来源,并且由于现代望远镜,现在可以观察远离我们的天体。在网络上越来越多的空间的现实和虚构的图像,并利用现代深层学习架构,如生成的对抗网络,现在可以生成新的空间表示。在这项研究中,使用轻量级GaN,从网络获得的图像数据集,以及Galaxy动物园数据集,我们已经产生了数千个新的天体,星系,最后,最后的宇宙视图。。复制我们的结果的代码在https://github.com/davide-ccomini/ganiverse上公开提供,并且可以在https://davide-ccomini.github.io/goccomiverse/中探索生成的图像。
translated by 谷歌翻译
异常在所有科学领域都无处不在,并且由于对数据分布的不完整知识或突然进入发挥和扭曲观测的未知过程,因此可以表达意外事件。由于此类事件“稀有性,培训对异常检测(广告)任务的深入学习模型,科学家仅依赖于”正常“数据,即非异常样本。因此,让神经网络推断输入数据下方的分布。在这种情况下,我们提出了一种小说框架,名为多层单级分类(MOCCA),在广告任务中培训和测试深入学习模型。具体来说,我们将它应用于AutoEncoders。我们工作中的一个关键新颖性源于明确优化广告任务的中间陈述。实际上,与常用方法不同,将神经网络视为单个计算块,即,仅使用最后一层的输出,MOCCA明确地利用了深度架构的多层结构。每个层的特征空间在训练期间针对广告进行了优化,而在测试阶段,从训练的层提取的深表示混合以检测异常。使用Mocca,我们将培训过程分为两个步骤。首先,AutoEncoder仅在重建任务上培训。然后,我们只保留编码器任务,以最小化输出表示和参考点之间的L_2距离,在每个考虑的层上都是无异常的训练数据质心。随后,我们将在编码器模型的各种训练层中提取的深度特征组合以检测推理时间的异常。为了评估使用MOCCA培训的模型的性能,我们对公共数据集进行了广泛的实验。我们表明,我们的拟议方法对文献中可用的最先进的方法达到了可比或卓越的性能。
translated by 谷歌翻译
In this paper we present TruFor, a forensic framework that can be applied to a large variety of image manipulation methods, from classic cheapfakes to more recent manipulations based on deep learning. We rely on the extraction of both high-level and low-level traces through a transformer-based fusion architecture that combines the RGB image and a learned noise-sensitive fingerprint. The latter learns to embed the artifacts related to the camera internal and external processing by training only on real data in a self-supervised manner. Forgeries are detected as deviations from the expected regular pattern that characterizes each pristine image. Looking for anomalies makes the approach able to robustly detect a variety of local manipulations, ensuring generalization. In addition to a pixel-level localization map and a whole-image integrity score, our approach outputs a reliability map that highlights areas where localization predictions may be error-prone. This is particularly important in forensic applications in order to reduce false alarms and allow for a large scale analysis. Extensive experiments on several datasets show that our method is able to reliably detect and localize both cheapfakes and deepfakes manipulations outperforming state-of-the-art works. Code will be publicly available at https://grip-unina.github.io/TruFor/
translated by 谷歌翻译
The shift of public debate to the digital sphere has been accompanied by a rise in online hate speech. While many promising approaches for hate speech classification have been proposed, studies often focus only on a single language, usually English, and do not address three key concerns: post-deployment performance, classifier maintenance and infrastructural limitations. In this paper, we introduce a new human-in-the-loop BERT-based hate speech classification pipeline and trace its development from initial data collection and annotation all the way to post-deployment. Our classifier, trained using data from our original corpus of over 422k examples, is specifically developed for the inherently multilingual setting of Switzerland and outperforms with its F1 score of 80.5 the currently best-performing BERT-based multilingual classifier by 5.8 F1 points in German and 3.6 F1 points in French. Our systematic evaluations over a 12-month period further highlight the vital importance of continuous, human-in-the-loop classifier maintenance to ensure robust hate speech classification post-deployment.
translated by 谷歌翻译